理论危机 | 无标度网络遭到史上最严重质疑
早期研究发现在很多网络中,少数节点占据了整个网络中的大部分连边,而多数节点的连边数量很少,节点连边数量的分布符合幂律。以巴拉巴西为代表的科学家们发现了大量满足幂律的网络结构,这种网络被称为无标度网络。人们越来越倾向于认为,幂律(Power Low)是无处不在规律,尤其在复杂网络中。
而2018年1月份发表的一篇论文,掀起了网络科学领域的腥风血雨。文中考察了1000种网络,只有4%是真正符合幂律分布的无标度网络,这对幂律分布的普遍性提出了质疑。幂律分布(Power Law)的发现和证明是网络科学发展史上最具有价值,最轰动,影响力最大的事件之一。这就好比哥白尼提出“日心说”,开始撼动“地心说”的统治地位。那么幂律分布的前世今生到底是什么样呢。我们先来了解一下。
1.幂律分布和无标度网络的
前世今生
早有学者发现,从WWW网络到细胞中的蛋白质相互作用网络都具有无标度的性质(Scale-free),直观来说,在众多网络节点中,那些拥有极大连边的点占少部分,大部分都仅有较少的连边,比如WWW网络中只有少数超文本拥有海量的超链接。一个节点拥有的连边数量在网络中称为一个节点的度(Degree),用数学来描述这类网络中节点度的分布就是我们说的幂律分布(Power Law)。
如果无标度网络真实存在,那它将给一些现象提供一个可解释思路,比如一个小小的病毒如何导致异常大规模流行病的传播;一个黑客为什么能够轻易的造成大规模的网络瘫痪。
最早针对无标度网络进行深度研究的是来自美国东北大学、从物理系跨界的科学家——Barabási(巴拉巴西),他是目前网络科学领域的大牛。他在网络科学科普书籍《链接》中称,幂律分布在真实世界中无处不在,了解幂律分布背后的成因,给出合理的解释,是推动网络科学发展和进步的重要工作。在这之后,成千上万的文章对真实世界中的幂律现象进行了探讨,无标度网络和幂律分布已经成为了网络科学学者普遍认同的规律和知识。
真实世界网络显示出丰富多样的结构,这可能需要新的理论模型来解释。——论文作者 Anna Broido 和 Aaron Clauset
2.质疑声音:
幂律在网络世界中其实很罕见!
近期科罗拉多大学的两位学者 Anna Brodio 和 Aaron Clauset 发现,在1000个真实网络中只有4%的网络通过了幂律分布的强检验,而67%的网络是不服从幂律分布的,包括之前研究多次提到的Facebook的朋友关系网络。因此幂律分布的普遍性在此受到了质疑,两位学者指出面对真实世界中丰富又充满多样性的网络结构,我们需要一套新的机制去解释他们。
Aaron Clauset 发现在自然界中无标度网络是罕见的,这与流行的看法相反
论文合著者:Anna Broido
大多数网络科学家肯定了两位作者在统计学上的分析,但是谈到如何解释这些统计结果上,网络科学家有两种声音,激烈的争论在Twitter上演。
介于随机网络和无标度网络之间的网络(以 Facebook 用户网络为例)
支持无标度模型的学者认为无标度网络模型是一个理想化的模型,而不是精确地捕捉真实世界的网络行为。他们说,无标度网络的许多最重要的特性,也适用于一个更广泛的类,称为“重尾网络”(heavy-tailed),许多现实世界的网络可能属于这个网络(这些网络的连接概率比随机网络高得多,但不一定遵循严格的幂律)。
反对者则认为像“无标度”和“重尾”这样的概念在网络科学文献中存在模糊和不一致的表述,使得这些命题存在不可证伪的问题(能够称之为科学的概念都必须具有可证伪性即总是存在一种方法能够证明该命题错误)。
有评论家说这篇文章就尝试着解决了定义中的模糊性和混淆性,当然网络科学作为近20年里刚兴起的一门年轻的学科,肯定存在很多不成熟的地方,包括对无标度网络的研究也不尽然全面,发展至今也仍然是一片待开垦的新领域。
3.幂律是普适法则吗?
——Barabási的无标度网络研究
每个节点都有4条连边,网络的特征尺度为4
关于网络的特征尺度问题:在一个二维正方体晶格网络中我们说一个节点与4个其他节点连接,也就是网络中节点的平均度是4,这就是可以看做一个网络的特征尺度。
在随机网络中,一对节点的以一定概率连接,尽管这个概率大小可以不同,但是它们会集中在一个平均值附近,这也就可以用以描述网络的特征大小,节点的度分布呈现一个钟形曲线,远远大于平均值的大度节点基本不会出现。
随机网络
但是 Barabási在研究万维网(WWW网络)时发现,有些网站,比如谷歌和雅虎,它们的链接数往往远大于其他网站,画出该网络的度分布,会发现它存在幂律特征(即度为k的节点的个数与I/k的某个指数函数成正比,比如在万维网中这个指数大概是2)。
把具有幂律特征的网络称为无标度网络的原因是:幂律分布没有峰值,只是随着度增大节点数减少,但是减少的速率相对较慢,并且如果你放大网络的不同部分,它们看起来很相似。结果就是,大多数节点度较小,但是在众多度小的节点中,会出现一个大度节点(hub)。要知道在 Barabási研究网络中的幂律现象之前,幂律分布研究已经是统计物理学的一个重要分支了,并且演化出了分形(Fractals)和自组织临界(self-organized criticality)两个分支。
无标度网络(以 Twitter 用户网络为例)
Barabási自1999年开始在顶尖杂志中发表一系列关于无标度网络的研究,他和他的研究生 Reka Albert 在众多真实网络中发现了幂律分布的现象,包括演员合作网、科学家引文网等,该文章的被引数超过三万次,这是一个天文数字。
Barabási 用“优先连接”的机制解释了无标度网络的生成,即“富人更富,穷人更穷”,当网络中生成新的节点,这些节点会偏向与度较大的节点,即原有的中心节点(hub)连接。他们也在无标度网络上进行了网络动力学和鲁棒性的研究,当无标度网络受到攻击时,大部分节点的损坏并不造成网络的崩溃,但是一旦攻击中心节点,网络将很快失去稳定性(这一点也一直遭受部分网络专家的反对)。
总之,Barabási的工作在网络科学领域掀起了对无标度研究的热潮,众多顶尖杂志都接受了关于无标度研究的相关工作。
Barabási,美国东北大学教授,无标度网络研究范式的拥护者
4.对无标度网络理论早有质疑
当然在一开始就有学者指出,偏好连接机制只是网络产生幂律分布的一种机制。还有学者对一些特殊网络中出现的无标度性质也产生了质疑。
另一方面有人提出无标度网络的相关研究缺乏统计意义上的严格性,为了发一篇更好的文章,有些作者甚至调整图像的角度使得度分布看上去就是幂律那么一回事。(如果将度分布的横纵坐标取双对数,那么无标度的网络的度分布会呈一条直线,因此有些作者,只要画出这条直线就认为网络服从幂律分布,这真的可信么?)
为了逃避这个问题,许多物理学家把研究重心转移到了重尾网络的研究中,当然还有一些值得讨论的问题并没有被展开,比如:无标度网络的准确含义是什么?一个服从幂律分布的网络其幂律指数只能介于2-3之间么?会不会有一个网络只是部分服从幂律呢?没有一个精确的语言表述也使得无标度网络的研究越来越沮丧。这使得一些学生甚至误以为,幂律分布的普遍性已经是一个既定,被证明过的事实。
Clauset并没有忽略上面提到的问题,他有野心去挑战在网络科学领域具有统治地位的无标度理论。在过去的几年里他的研究小组收集了大量的真实网络数据,形成了ICON(Colorado Index of Complex Networks)数据库,里面有将近4000多个真实网络的数据,覆盖了社会经济、生物、交通等众多领域,就是为了找到幂律分布缺乏普遍性的证据,换句话说,他试图证明“幂律分布具有普遍性”这个命题是错的,并且推广到所有可能的实际网络中。
5.浮尘散去,真相大白?
统计数据来说话
Clauset和他的研究生Broido在将近1000个网络中进行了严格的统计性检验,他们设计了一种严格的统计方法测试网络是否服从无标度的特性(具体细节请参考论文原文)。
为了进行对比,他们还给出了另外两种分布作对照,一种是指数分布,一种是对数正态分布,重点观察分布尾部即大度节点的分布情况。
相比幂律分布,指数分布的尾部更瘦,意味着大度节点更稀少;而对数正态分布的尾部厚度,介于指数分布和幂律分布之间。
不同参数下的指数分布
不同参数下的对数正态分布
他们发现在2/3网络的度分布,完全不能用幂律分布来解释,而在剩下的1/3的网络中,虽然并非完全服从幂律,只是不能排除服从幂律分布的可能。
值得惊讶的是对数正态分布在45%的网络中,匹配程度超越了幂律分布,并且在其他43%的网络中与幂律分布打成平手。只有4%的网络通过严格的统计检验(幂律指数落在2-3的范围内),并且比另外两种分布更吻合。
6.争议:
你不能因为一片羽毛质疑万有引力
对 Clauset 等人研究的反驳主要有两种。
一种反驳意见是,偏好链接机制只是形成无标度属性的一种可能,还有很多其他的机制可以造成无标度的属性,而这些机制共同作用,最终使得网络的度分布偏离了纯粹的幂律分布。Barabási认为,此前已经有学者对于其他机制进行了成功的论证,Clauset 的结论不代表复杂网络中不存在无标度的特征。
另一种反驳意见是在真实的网络中,数据中总是存在偏差和噪声等,使得真实世界的网络不可能完美的符合幂律分布。
Barabási用一个比喻来反驳 Clauset 的工作,“你不能因为现实中一片羽毛和一块石头落下的速度不同,就否定万有引力定律(万有引力定律告诉你自由落体的速度就应该一样),在现实中总是会受到其他因素的干扰,比如空气阻力”。
显然 Clauset 不接受这个批评,他说“这并不是一个受过训练的统计物理学家应该作出的比喻,如果有1000种物体自由落体,你总能在大部分物体中观察到重力和空气阻力如何共同作用于物体的普遍规律,所谓的干扰因素问题就可以迎刃而解,但是幂律分布在1000个真实网络中仅有4%能通过检验,这说明幂律分布模型没有普适性。”
即使那些没有通过严格的幂律分布统计检验的网络中真的存在无标度的属性,并且是一些其他因素导致的,那我们应该观察到一个主要的影响机制,就像在自由落体试验中,我们总能观察到重力在起主导作用,空气阻力只是一个小的扰动项。但是在对网络特性的检验中,我们无法观察到一个独立的机制起主导作用。
美国东北大学的网络科学家 Alessandro Vespignani 认为,这些争论体现了物理学家和统计学家心态的不同,他肯定了双方的观点都是有价值的,并且提到物理学的艺术就在与近似,在于找到通用的规则,无标度属性的提出就是一个例子,在这套框架下我们可以用一个统一的框架去解释多种现象。但是他认为,无标度属性的重点在于这个度分布是否是重尾分布,因为这种重尾分布才导致了先前提到的一系列现象,比如网络的鲁棒性和脆弱性。
微软研究院的网络科学家 Duncan Watts 则认为 Vespignani 的观点偷换了概念,“重尾分布”是一个含义甚广的词语,并且它和无标度的定义有重合的地方,因此它并不是解决问题的关键。他认为无标度性在一定程度上解释了某些现象,但其适用范围并不广。让科学家们重新把精力放在更正自己的观点、收回先前的评论上,并不是好事,毕竟无标度性质的提出也具有跨世纪的价值。
Duncan Watts,微软研究院网络科学家,以其对“小世界网络”的研究而闻名
7.小结:
网络科学的普适理论尚未诞生
尽管辩论激烈,但是却十分有趣,因为学者们争议的“是否存在普适规律”本身就是一个有意思的难题。Clauset 解释到“我们这篇工作只是想引起网络科学家的注意,去发现更多的网络结构分布和形成机制,去质疑经典理论的适用性。”在这一点上Vespignani也表示赞同,深究起来,在网络科学领域尚且还没有一个普适的理论。
文雷编译整理自:https://www.quantamagazine.org/scant-evidence-of-power-laws-found-in-real-world-networks-20180215/
原文题目:Scant Evidence of Power Laws Found in Real-World Networks
论文地址:https://arxiv.org/abs/1801.03400
推荐课程
网络科学入门
樊瑛:如何衡量你在社交网络中的位置
http://campus.swarma.org/gcou=10309
张江:复杂性科学的前世今生
http://campus.swarma.org/vdetail=3
推荐阅读
彩云ICLR 2018顶会论文带你进入“组合式神经编程”的世界
集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!